DeepMind智能体自学跑酷：略显智障，结果尚好

2017-07-11 专注报道AI 量子位

安妮编译整理
量子位出品 | 公众号 QbitAI

“看起来就像小学生在玩地狱边境。”

近日，谷歌DeepMind团队创造了一个自学跑酷的智能体，并且解锁了它在不同地形和障碍物下的跑酷姿势。除了画风喜感了点，训练效果看起来还是蛮好的。

https://v.qq.com/txp/iframe/player.html?vid=f0524ujycym&width=500&height=375&auto=0
△ 1分37秒处情感惊艳

简笔小人

视频中的简笔小人似乎似乎在进行一场激烈的跑酷比赛，它的身型、周围的地形以及障碍物都是变化的。小人需要自学奔跑、跳跃、蹲伏等姿势，找到从A到B的最佳穿越方式。

研究人员赋予了智能体一组虚拟传感器，传感器告诉智能体有没有走歪，并激励它前进。智能体需要根据传感器的指示自己探索和修正错误，尝试不同的通过方法。

这个智能体背后，是DeepMind团队在探索怎样将强化学习应用在教智能体适应陌生且复杂的环境。

这项研究成果也被同步发表到arXiv上，DeepMind将论文命名为《Emergence of Locomotion Behaviours in Rich Environments》，由Nicolas Heess, Dhruva TB, Srinivasan Sriram等12名DeepMind研究人员完成。

论文介绍

一般来说，强化学习（Reinforcement Learning）让智能体在奖励中直接学习复杂行为。但在通常情况下，强化学习训练的运动非常脆弱，在陌生环境中很容易崩溃，不知下一步应如何移动。

就像婴儿适应了家里的楼梯后，再把他放在电动扶梯上，他就不知如何是好了。

一般的强化学习需要研究人员仔细地设计很多特定的奖励机制。

但DeepMind研究人员仅仅给予智能体一个奖励行为，那就是前进。

他们用单一的奖励机制配合丰富的环境，让智能体学习运动。运动行为对奖励的设置非常敏感，但结果显示，智能体在各种环境中都表现良好。

也就是说，DeepMind的智能体不依赖多种奖励，而是通过丰富的环境，如地形与障碍学习复杂行为。

通过这种新奇的可扩展策略梯度增强学习变体，智能体在没有明确环境奖励引导的情况下，也可以跑步、跳跃、蹲伏和转弯。

强化学习算法

为了使智能体在这些富有挑战的环境中有效学习，必须有一个可靠的可拓展强化学习算法。因此，DeepMind用了几组方法组合完成了这项任务。

这项任务不仅需要基于强大的策略梯度算法，如信赖域策略优化（TRPO）和近似策略优化（PPO）置信区间的参数更新，来确保稳定性。

其次，还要像广泛使用得A3C算法等相关方法一样，需要在很多并行智能实例和环境上分配计算。

最后，附上论文地址：

https://arxiv.org/pdf/1707.02286.pdf

【完】

一则通知

量子位读者5群开放申请，对人工智能感兴趣的朋友，可以添加量子位小助手的微信qbitbot2，申请入群，一起研讨人工智能。

另外，量子位大咖云集的自动驾驶技术群，仅接纳研究自动驾驶相关领域的在校学生或一线工程师。申请方式：添加qbitbot2为好友，备注“自动驾驶”申请加入~

招聘

量子位正在招募编辑/记者等岗位，工作地点在北京中关村。相关细节，请在公众号对话界面，回复：“招聘”。

△ 扫码强行关注『量子位』

追踪人工智能领域最劲内容

反向激励，在加速这个社会的黑化

把病毒学家逼成流浪汉，就不怕实验室里的病毒也流浪上海吗？

广西一女子和公公地下情4年，先杀丈夫后杀婆婆，只为独占公公！果然报应来了…

三观炸裂：一招让办公室所有公务员，统统变母猪…

震惊！布林肯连夜离开，马上开始指责中国！

DeepMind智能体自学跑酷：略显智障，结果尚好

安妮编译整理
量子位出品 | 公众号 QbitAI

简笔小人

论文介绍

强化学习算法

一则通知

招聘

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

把病毒学家逼成流浪汉，就不怕实验室里的病毒也流浪上海吗？

广西一女子和公公地下情4年，先杀丈夫后杀婆婆，只为独占公公！果然报应来了…

三观炸裂：一招让办公室所有公务员，统统变母猪…

震惊！布林肯连夜离开，马上开始指责中国！

生成图片，分享到微信朋友圈

DeepMind智能体自学跑酷：略显智障，结果尚好

安妮 编译整理量子位出品 | 公众号 QbitAI

简笔小人

论文介绍

强化学习算法

一则通知

招聘

您可能也对以下帖子感兴趣

安妮编译整理
量子位出品 | 公众号 QbitAI